商务统计学基础 | 第四章 0-1回归模型
我们在上一节中系统地学习了线性回归模型,线性回归模型解决的是连续型因变量的建模和预测问题。然而在我们的实际生活中,也经常会碰到0-1型因变量的情况。所谓0-1型因变量就是只有两个可能性的离散型因变量,常常(并不是所有情形)可以被规范成一个是否的问题。比如:该邮件是否是垃圾邮件?某互联网广告是否会被点击?信贷业务中用户借贷后是否会按时归还?等等。此时,研究问题的因变量Y是一个0-1型变量。面对0-1型因变量,为什么不能用上一节讲的线性回归模型来拟合呢?回顾最简单的一元线性回归模型,。如果将该模型用在0-1型因变量上,那么此时等号的左边是一个取值为0或者1的值,但是等号的右边是一个连续型数值(因为的存在)。所以左边和右边永远不可能完全相等。因此线性回归模型不能直接对0-1型因变量建模。那应该怎么办呢?这就需要用到回归五式的第二式:0-1回归模型。为了更好的介绍0-1回归模型,我们以一个实际案例为例,详细讲解0-1回归模型的各个方面。
案例介绍
本章采用一个关于汽车保险的案例。为什么采用这样一个案例?因为随着人民生活水平的不断提高,汽车已经逐渐成为家庭标配。国家统计局数据表明,2020年全国平均每百户居民拥有37.1辆家用汽车。从总量上看,图4.5.1展示了我国民用汽车保有量从2008年到2021年的变化情况。从中可以看出,自2008年以来我国民用汽车保有量持续增加,2021年已经达到了2.9亿辆,是2008年的6倍左右。
庞大的汽车保有总量促进了车险行业的蓬勃发展。据银保监会统计,2019年与2020年全国机动车辆保险的原保费收入分别达到8188亿元和8245亿元,分别占同年保险行业总原保费收入的19.2%和18.2%。在车辆保险行业不断发展、规模不断扩大的过程中,车险计费的方式也在改变。我国车险定价在很长一段时间内执行的都是统一费率标准,而2002年8月中国保监会发布了《关于改革机动车辆保险条款费率管理制度的通知》,自此保监会不再制定统一的车险条款费率。即便如此,在今天我国车险费率的灵活性也是较低的。而随着车联网等技术的逐步普及,各类移动数据采集设备可以提供更详尽的司机驾驶行为数据,例如车辆的里程表度数、速度和时间信息、急转弯和急刹次数等。通过对这些数据与是否出险的结果进行建模,就可以估计车主的事故风险,这为更加精准的个性化车险定价提供了可能。所谓个性化车险就是对不同车主提供非常有差异化的车险保费,其核心在于让驾驶行为良好的车主享受更优惠的车险费用。这类车险模式对驾驶行为习惯良好的车主而言能够减少开销,帮助其养成良好的驾驶习惯,于保险公司而言也能够降低赔付率,提升客户体验。
无论是传统车险还是更为精准的个性化车险,保险公司最关心的核心指标都是该险种的理赔情况,因为理赔情况直接影响到该险种是否能够给公司带来收入,以及为了实现该收入而承受的风险。而理赔情况又可以量化为几个核心指标:出险率、出险件数、理赔总金额等。在本案例中聚焦的指标是出险率,其理论值是车主出险的概率。而出险率反映到车主个体层面就变成了“是否出险”,这就是本案例中的因变量Y。显然“是否出险”的结果只可能有两种状态:“出险”或“未出险”,因此这是一个0-1型数据,以这类0-1型数据为因变量Y建立回归模型的过程就叫做0-1回归。如果能够通过建立回归模型,分析哪些因素X对“是否出险”具有显著的影响,就可能帮助保险公司识别不同风险的驾驶人,从而建立更加个性化的车险产品。那么哪些因素会影响车主是否出险呢?可能的影响因素包括车型、车辆配置、车主年龄和性别,以及驾驶行为等。为了建立0-1回归模型,探究显著影响车险出险的因素。本案例收集了来自某保险公司的车险数据,共4233条记录。该数据共包含11个变量。其中,因变量为车主在某年度是否出险,其它相关影响因素均为自变量,可分为汽车因素和驾驶人因素两类。具体变量情况如表4.5.1所示。
表4.5.1 变量说明表描述分析
在正式分析之前,我们可以首先进行一些描述性分析,从而对之后建模中需要使用的因变量和自变量有一些直观的认识。另一方面,描述性分析也可以帮我们初步探究一下自变量与因变量的关系,至于这些关系是否显著,还需要通过建立回归模型进一步确定。通过简单的计算可知,因变量“是否出险”中出险的样本比例达到27.64%。下面我们首先关注驾驶人因素与是否出险的关系,图4.5.2中分别展示了驾驶人年龄、驾龄关于是否出险的分组箱线图。图4.5.2(a)中显示,出险与未出险的驾驶人年龄箱线图十分接近,事实上出险和未出险的驾驶人年龄中位数均为38岁,这表明年龄可能不是显著影响是否出险的因素。图4.5.2(b)中显示,未出险驾驶人的驾龄箱线图略高于出险驾驶人,事实上未出险驾驶人和出险驾驶人的驾龄中位数分别为5年和4年,这表明驾龄高的驾驶人出险的比例更低,这与经验常识相符。
图4.5.3(a)和(b)采用棘状图的形式展示了性别以及驾驶人婚姻状况与是否出险的关系。和一般的柱状图相比,棘状图不仅可以展示离散型数据各水平取值的比例,还可以通过柱形宽度直观反映对应样本的数量。例如图4.5.3(a)中男性对应的柱形宽度远宽于女性的柱形宽度,这说明男性样本远多于女性样本,事实上样本数据中男性驾驶人占据90.4%的比例。另外,图4.5.3(a)还表明相对于男性驾驶人26.9%的出险比例,女性驾驶人出险比例更高,达到34.4%。这意味着相对于男性驾驶人,女性驾驶人可能更容易出险。除此之外,图4.5.3(b)中表明,样本数据中已婚驾驶人占据大多数,达到95.1%。而已婚驾驶人的出险比例(27.4%)略低于未婚驾驶人(32.4%),这意味着相对于已婚驾驶人,未婚驾驶人可能有着更高的出险可能性。
除了考虑驾驶人的各项特征与是否出险的关系,也可以考虑汽车因素对是否出险的影响。图4.5.4(a)展示了车龄与是否出险的棘状图,其中车龄1年定义为“新车”,车龄在1年以上定义为“旧车”。新车和旧车对应的样本量近似相等,然而新车的出险比例达到32.8%,明显大于旧车的出险比例(22.7%)。这意味着相对于旧车,新车出险的风险可能更高。图4.5.4(b)展示了车辆引擎大小与是否出险的棘状图,其中引擎大小1.6升以上定义为“中高级车”,1.0至1.6升定义为“普通级车”。中高级车对应的样本量略多于普通级车,而普通级车的出险比例达到33.3%,明显大于中高级车的出险比例(24.0%)。这意味着相对于中高级车,普通级车出险的风险可能更大。
图4.5.5(a)展示了有无固定停车位和是否出险的棘状图。从中可以看到样本数据中,有固定车位的车辆达到83.1%,远高于无固定车位的车辆(16.9%)。从出险比例上看,有固定车位的车辆出险比例(28.3%)略高于无固定车位的出险比例(24.6%)。而直觉上有固定车位的车辆应该更加安全,发生事故并申请理赔的可能性更低。上述结论恰恰和直觉相反,这既有可能反映了有固定车位与高出险比例之间存在某些内在的关联,也可能仅仅是由于数据量较小而产生的偏差。二者之间是否存在显著关联,还需要借助后续的建模结果才能进行判断。图4.5.5(b)展示了不同所有者性质与是否出险的棘状图,其中私人所有车辆占据了大多数(71.7%)。而从出险比例上看,私人所有车辆的出险比例最高,达到31.1%,明显超过公司所有车辆(20.2%)和政府所有车辆的出险比例(15.4%)。这表明相对于公司和政府所有车辆,私人所有车辆出险的风险可能更大。
模型描述
接下来,我们考虑如何建立一个适合0-1型因变量的回归分析模型。为方便讨论,我们先考虑一个简单情形:那就是只有一个X变量。此时,如果Y是连续型数据,那么最简单的一元线性回归模型:Y=β0+β1X+ε也许就可以满足建模要求。但是,如果Y是0-1型数据,那么就显然不成立了,因为在数学上等号的两边是矛盾的。那应该怎么办呢?
回到本车险案例。一个司机是否出险(Y=0 或者1)实在是一个非常随机的现象。虽然我们都知道酒后特别容易出事,但是你也常常看到酒后不出事的案例。虽然我们都知道疲劳驾驶很容易发生事故,但是疲劳驾驶仍然无事故发生的案例其实是大多数。这其中的矛盾出在哪里?原因其实很简单。从纯粹的统计学技术上讲,是否喝酒(例如)不是车祸的直接原因。喝酒这个X,其实影响的是车主神志不清醒的程度(假设为Z),而Z才对出险直接负责。理论上我们假设有这么一个奇才,体内能循环产生巨量的乙醇脱氢酶和乙醛脱氢酶(人体内用于代谢酒精的酶),喝多少酒,都会在胃肠道化解掉,一滴酒精都进不了血管。那么,对于这个人而言,喝多少酒X,都影响不了神志不清醒程度Z。当然,这是一个虚构的故事。但是,通过这个故事,希望你能学习理解这样一个理论框架:从X出发,到Z,然后到Y。类似的故事不仅仅发生在车险领域。经济学家如何解释消费者的购买行为?他认为,一个手机的各种功能X,影响了消费者可感知的效用Z,于是产生了购买行为Y。类似的案例还比如,一个人的生活习惯X,影响了他的健康状况Z,最后决定了某个疾病的发生Y。这类案例可以有很多很多,聪明的你一定能想出更多来。在这个过程中你有没有注意到一个特点,这个Z常常是看不见摸不着的。例如,你能测量一个人的驾驶能力吗?驾校的各种考试虽然是在测量,但是那仅仅是某一种测量,而且可以肯定的是,绝对是不完美的测量。为什么?因为完美的测量根本不存在。又例如,你能测量一个手机之于消费者的效用吗?营销学者为此发明了联合分析等各种有趣的工具,就是在一定程度上测量这个目标,非常有用,但是显然不可能完美。还比如,你能测量一个人的综合身体状况吗?为此,我们每年都要体检,非常有用,但是显然不可能完美。所以,Z有一个很大的特点:看不见摸不着。这是Z的第一个特点。
这个神奇的中介变量Z还有一个很大的特点,那就是:它似乎是连续的。为什么?我自己就是司机,我会有一个清晰的感觉,什么时候清醒程度最好(一大早吃饱喝足的时候),什么时候清醒程度不好(大中午吃饱喝足的时候),还有的时候不好不坏。我似乎能感受到,某时候的驾驶状态比另一个时刻似乎好一点点,或者差不多,说不清楚。为什么?因为:驾驶状态这个Z变量本质上是连续的。手机对于消费者的效用也同样如此,一款处理器、屏幕、内存、容量等等配置都达到最高的手机对于消费者的效用一定是很高的,因为这样高配置的设备能很好的满足消费者的通话、影音、摄影和游戏等等需求。相比之下,一款配置很低的老人机对于消费者的效用一定是很低的,因为它可能只能用于通话。而两款配置接近的设备对于消费者效用的区别有多大?内存大容量小的手机效用更高,还是容量大内存小的手机效用更高?这是很难说清楚的。原因就在于:手机对于消费者的效用这个Z变量本质上是连续的。同样的道理也适用于一个人的健康状况,一个经常进行体检筛查、各项体检指标均正常、生活习惯良好的人的健康状况一定是高的,这是很容易判断的。同样地,一个体检筛查发现罹患癌症的人的健康状态一定是低的。但一个患有胃炎但体重正常的人和一个肥胖但胃部健康的人相比,谁的健康状况更高?有的人可能觉得胃病危害更大,前者健康状况更低;有的人可能觉得体重影响的身体机能更广泛,后者健康状况更低。总之,二者健康状态孰高孰低,高多少低多少?这是说不清楚的。为什么?因为:健康状况这个Z变量本质上也是连续的。
既然Z本质上是连续的,那么X对他的影响是否可以通过一个简单的线性回归来描述呢?例如:。接着,在给定Z的前提下,Y的取值就很简单了。还是以车辆出险案例为例,对于一个给定的司机,如果其神志不清醒程度Z足够高,那么他就必定出险(Y=1)。相反,如果神志不清醒程度Z足够低,那么他就必定不出险(Y=0)。类似地,对于一个消费者,如果某款手机对他的效用Z足够高,那么他就必定购买(Y=1)。相反如果该款手机对他的效用Z足够低,那么他就必定不购买(Y=0)。在健康状况的案例中,如果某人的健康状况Z足够高,那么他就必定不会患某疾病(Y=1)。相反如果他的健康状况Z足够低,那么他就会患该疾病(Y=0)。因此,数学上Z和Y的关系可以用下面这个确定性的规则描述:
其中c为常数,代表划分Y=1和Y=0两种状态的阈值,这也是一个未知参数。再次回到咱们的车险案例,请注意神志不清醒程度Z和X(例如:血液中酒精浓度)之间的关系是一个简单的一元线性回归模型:。根据这一线性模型和上面的阈值模型,可以判断对于车主的出险概率为:
其中是的分布函数。为了使得数学上的形式简洁优美,我们重新定义为一个新的,那么上面的模型就变成。你看,这是不是已经有一点点回归模型的味道了?为什么?因为有清晰的回归系数了,有截距项和斜率,而且是非常可解读的。假设是正的,那么自变量X的取值越大,因变量Y等于1的概率就越大。因此,只要我们能够对的分布函数做出一个合理的假设,那么我们的0-1回归模型的构建就算大功告成了!请问:应该如何假设?
第一个最自然的假设是:假设服从正态分布。为什么?这似乎没有太多的道理,仅仅是因为这是统计学中最常用的一个分布。如果我们假设为均值为方差为的正态分布,那么对应的响应概率(Y=1的概率)为:
其中,表示标准正态分布的分布函数。在上述式子中由于和均为常数,因此同样可以重新定义为一个新的,定义为一个新的。那么上面的模型就变成了。这表明,从任何不同参数的正态分布出发,我们都可以经过一系列参数变化,将模型调整至右侧为标准正态分布函数的形式。因此,只要我们愿意接受服从正态分布的假设,那么具体是哪一个正态分布就不重要了。但是,面对同样的数据,如果不同的研究者采用不同的正态分布设计,就可能产生不同的参数估计结果,这对实际工作而言,确实令人烦心。为了避免这些不必要的烦恼,整个学术界约定俗成地使用标准正态分布。也就是假设服从一个均值为0、方差为1的正态分布。此时,就产生了经典的probit回归模型,其严格形式如下:
你看,这样一个probit模型的产生是不是非常自然,甚至有一点点优美,因为它与经典的线性回归有着自然而优美的联系。但是,说来你也许不一定相信,这并不是实际中用得最多的0-1回归分析模型(虽然仍然非常常用)。为什么?主要原因是,这个正态分布函数是一个没有显式解的积分!你也许会说:这有什么难的?是的,对于计算机如此普及的今天,这样的一元积分,真的不难。但是,对于大几十年前,计算机还非常不普及的时代,计算这样的积分,是一个非常痛苦的事情。因此,人们非常渴望能有一种稍微简单一点的、有显式解的分布函数,去替代标准正态分布的函数。这个替代函数就是逻辑分布函数:如果我们假设的分布函数是上面的逻辑分布函数,那么对应的回归分析模型就会从probit模型变为logit模型:
。
而这就是实际工作中最常用的逻辑回归模型了。对于一个真实数据而言,究竟是哪一个模型更好?这通常依赖于数据情况,没有简单一致的答案。我们的个人经验表明,大多数情况下,差别不大。所有与Y变量强正相关的X变量,在任何合理设计的模型中都会正相关;所有与Y变量强负相关的X变量,在任何合理设计的模型中都会负相关。但是实际工作中,确实存在某些X变量,可能偶尔在两个模型中的表现不一致。这往往是因为这些X变量与Y变量的相关性并不足够强。因此,也许比较稳妥的一种说法是,这两个模型都是非常有用的处理0-1型因变量的模型,而且都被各个重要的统计学软件所实现,都值得好好学习和掌握。
参数估计与统计推断
接下来我们探讨一下如何对逻辑回归中的回归系数进行参数估计。这里只讨论逻辑回归,因为probit回归的估计方法完全相似。另外,逻辑回归确实在实际中用得更多一些,尤其是在现在正在兴起的深度学习模型中,逻辑回归常常是深度学习模型的最后一层(Output Layer)。具体而言,如何估计回归系数和呢?假设能够直接观测到Z,那么只要做一个X关于Z的最小二乘估计就可以了。但是,这里挑战之处就在于Z是看不见摸不着的。如果Z都看到了,为什么不直接研究Z呢?这样也就没有必要研究Y了。因此,我们必须得在Z缺失的前提下,在只有X和Y的帮助下,把和估计出来,怎么办?
显然,由于因变量为0-1型变量,因此我们不能再借助最小二乘估计。此时,我们需要求助于极大似然估计方法。对于该方法,我们在前面2.2节中做过详细讨论。这里,我们将该方法应用于逻辑回归的参数估计。和前面的过程类似,这里我们也考虑最简单的一元逻辑回归的情况,多元情形可以类似推导。假为第个因变量的取值,而为第个自变量的取值。根据极大似然估计的理论,接下来需要推导的联合概率密度函数,即似然函数。由于在一元逻辑回归中,
于是有以下似然函数:
相应地,在实际计算中常用的对数似然函数可以表示如下:
按照极大似然估计法的步骤,接下来需要求解使得对数似然函数达到最大时的参数但遗憾的是,由于该对数似然函数形式比较复杂,在实际计算中通常借助各类最优化方法进行求解,在此处并不能给出参数的极大似然估计的显式表达式。
在进行参数的估计之后,我们实际上得到了自变量和因变量之间的关系,但仍然有一个问题没有解决:这一关系是否显著?如果参数等于0,则意味着因变量Y与自变量无关。因此该问题可以直接转化为判断:参数是否显著不等于0?这对应着一个双边假设检验问题H0: v.s. H1:设的极大似然估计量为。由于中心极限定理,在样本量足够大时,将服从正态分布,即:N(0,1),
其中是的标准差。因为是关于的一个测量,而是关于该测量的测量误差,因此也称其为标准误差(Standard Error)。然后可以构造假设检验统计量,其中是关于的一个相合估计。当时,接受原假设H0:
以上探讨的是只有一个X变量的逻辑回归。而本案例涉及多个X变量。具体而言:
这就是更一般化的逻辑回归。对于任意
表4.5.2 逻辑回归模型结果
从表中可以看出,在10%的显著性水平下,显著影响是否出险的因素有:汽车级别(是否为中高级车)、是否为新车、所有者性质(是否为私人所有)、驾驶人驾龄。具体而言,可以首先以驾驶人驾龄为例来进行解读。表4.5.2表明驾驶人驾龄因素的回归系数
我们可以用同样的方法再解读一下是否为中高级车这一变量(
以上就是对逻辑回归模型的简要介绍。关于逻辑回归模型的理论有着更加丰富的内容可以深入。有兴趣的读者可以参考回归分析相关的专著,本书就不再深入讨论了。请注意,逻辑回归虽然不是严格的线性回归,但是同线性回归有着非常相似的构造。因此理论上,我们称其为一种广义线性回归模型(Generalized Linear Model)。而在下一节中,我们将呈现给大家的是更加有趣的非线性分类方法,为大家进一步学习机器学习方法提供一个小小的起点。
1 数据来源:国家统计局往期推荐